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До проблеми розшзнавання злито! мови 


В статье описывается предлагаемый авторами метод распознавания слитно произносимых фраз, состоящих 
из слов заданного словаря. Метод основан на использовании разработанного авторами механизма 
сегментации речевого сигнала и алгоритме нахождения первого слова, который авторы обозначают 
как «принцип минимума ОТ\-расстояния». Используется ранее предложенная авторами методика 
построения эталонов слов из дифонов и некоторая модификация метода ОТ\У/, дающая заметный 
выигрыш в скорости и объеме необходимой памяти. Практическая реализация метода требует также 
уточнения алгоритмов определения границ записанного речевого отрезка и расширения множества 
правил автоматического транскрибирования. Этому посвящены два первых раздела статьи. 
Ключевые слова: начало и конец речи, транскриптор, слитная речь, сегментация, дифон, 
алгоритм ОТУ\У,, выделение первого слова, принцип минимума ОТУ/-расстояния. 


Ач®ог’$ гесосшйоп о{ сопипиои$ зреесн тео4 1$ дезстте ш е агае. РВгазе 1$ соп5$15п$ ог У’ог4$ 
ОЁ 1уеп уосабагу. ТВе тео 15 Базе оп изте аиог’$ тесвапзт оЁ зестешайоп зреесВ $1епа| ап4 
а!оопфит оЁ зеагсо® Ше Вгзё ууота, \мсВ уе пате тийпа! ОТУ’-@яат рипспуе. \е зе еа ег ргорозе4 Бу 
аиог$ ргоседиге о{Ё сопугасйоп райеги$ \Ий Ше вер оЁ а1рвопе Базе ап зоте то Ч1сайоп оЁ тефоа 
ОТУ’ уысь с1уез уш ш зрее4 ап4 тетогу. Ргасиса! геаП7тайоп оЁ тео 4етап@а$ оЁ тоге ргес1зе 
деегитайоп оЁ зреесв Боип4ате$ ап ещагоетепЕ диап (у г[е$ оЁ ащотайс апзсирйоп зубет. Т№$ 1$ 
фе заб] ес оЁ мо Нг5Е зесНоп$ оЁ Ше агасе. 

Кеу уог45: Беошише ап4 еп4 оЁ зреесв, тгапзсирНоп зует, сопйпиой$ зреесв, зеготетшжайоп, 
Чрвопе, ОТ\/-а1еогифт, ше Вг$( \уогА зераганоп, пииита1 ОТУ/-Ч1$апЕ рипстре. 


У стат! описуеться пропонований авторами метод розшзнавання злито вимовлених фраз, що складаються 31 
слв заданого словника. Метод заснований на використанн! розробленого авторами механ!зму сегментаци 
мовного сигналу й алгоритму знаходження першого слова, що автори позначають як «принцип мшмуму 
ОТ\У-вдстан1». Використовуеться ранйше запропонована авторами методика побудови еталонйв слив з 
дифонив 1 деяка модиф\кащя методу ОТ\У/, що дае помтний виграш у швидкост! й обсяз1 необх1днот 
пам’ят!. Практична реалзащя методу вимагае також уточнення алгоритм визначення границь записаного 
мовного в1др1зка й розширення множини правил автоматичного транскрибування. Цьому присвячен1 
два перших роздли статтт. 

Ключов! слова: початок 1 кнець мови, транскриптор, злита мова, сегментащя, дифон, 
алгоритм ОТУ, видлення першого слова, принцип м1н1муму ОТУ/-в1дстан1. 


1 Видоизмененный алгоритм определения начала и 
конца речевого отрезка 


Описываемый ниже алгоритм продолжает тему работы [1] и ориентирован на 
снижение влияния шума микрофона и звуковой карты. 
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Используется 8-битная запись с частотой 22050 Гц. По нажатии кнопки записи 

записываются последовательные отрезки звука по 300 отсчетов (окна). Для каждого из 
298 

них вычисляется отношение У/С, те У = Аз |; а "| — численный аналог 
1=0 


полной вариации, (^ — количество точек постоянства, то есть таких моментов времени, 
что в следующий момент величина сигнала остается той же самой. Берется среднее 
этого отношения по первым 10 окнам. Назовем эту величину «текущий За Рогоз». 
Она характеризует верхний порог «молчания». Ждем момента, когда этот порог будет 
превышен не менее 5 раз подряд. Возвращаемся на 20 окон назад (начальный запас) 
и, начиная с этого момента, заносим записываемые отсчеты в буфер 1. Тем самым 
начинается запись того, что мы предполагаем речью. Определим «текущий ЕпаРогог» 
как пятикратный текущий З{а(Рогое. Заполнение буфера 1 продолжается до момента, 


после которого величины У /С’ на протяжении 10 тысяч отсчетов будут меньше, 
чем текущий ЕпаРогос. В него заносятся также упомянутые 10 тысяч отсчетов (запас 
в конце). Таким образом, запись предполагаемого речевого отрезка останавливается. 
Отметим, что при каждой записи вычисляются новые значения величин «текущий 5а( 
Рогог» и «текущий ЕпаРогоз». 

Записанное проверяется на наличие речи с использованием квазипериодичности 
([21). Если наличие речи обнаруживается, содержимое буфера 1 передается в буфер 2. 

Записанный речевой отрезок сегментируется ([3]). Ввиду сказанного выше, сегмен- 
тация будет начинаться и заканчиваться отрезком паузы (маркировка символом Р). 
Наличие этого отрезка в конце позволяет определять, предшествует ли ему гласный 
(И) или звонкий согласный (С). Если заключительному Р-отрезку непосредственно пред- 
шествует шипящий звук (ГР), алгоритм сегментации также позволяет его обнаружить. 

Шум звуковой карты и микрофона может искажать информацию о границах 
речи. В связи с этим производится уточнение левой границы речевого отрезка. Для 
этого все записанное подвергается 100-кратному сглаживанию. При этом начальный 
отрезок молчания превращается в функцию времени, близкую к постоянной (значение 
этой постоянной определяется величиной первого отсчета, записанного в буфер 2). 
Считаем, что речь начинается с момента, когда отклонение от этой постоянной пре- 
вышает порог р/ (у нас это 10). Отмечаем этот момент в сигнале с помощью метки. 
Столь сильное сглаживание может «обрезать» начальный шипящий или часть звонкого 
согласного. Поэтому, если сегментация, произведенная выше, обнаруживает в начале 
отрезок шипящего или звонкого согласного, метка начала речи при необходимости 
сдвигается влево, в положение начала шипящего или согласного. Символ Р в начале 
записи убирается. 

Аналогичным образом производится уточнение правой границы записанного 
речевого отрезка. 

Определяется наличие или отсутствие в конце речи глухого взрывного звука 
(ПП, К, Т или их мягкие варианты). Для этого подсчитывается расстояние (количество 
отсчетов) между последней меткой Р и уточненной меткой конца сигнала. Если оно 
превышает некоторый порог р2 (у нас это 2500), то считаем что в конце речи есть 
глухой взрывной и оставляем заключительный отрезок с маркировкой Р у его левой 
границы. Если это расстояние меньше р›, то заключительный Р-отрезок убирается 
вместе с маркировкой метки Р и эта метка считается истинным концом сигнала. 
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Пример 1 

9 Весорттег - [сеновал.мау] Е | 
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Р | С С :Р 
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Рисунок 1 — Результат предварительной записи слова «Сеновал» с сегментацией 
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Рисунок 2 — Границы в том же слове после сглаживания 
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Рисунок 3 — Окончательный результат записи и сегментации слова «Сеновал» 


Пример 2 
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Рисунок 4 — Окончательный результат записи и сегментации слова «Салат» 


Отметим в заключение, что использование упомянутой выше проверки на Наличие 
речи позволяет организовать механизм автоматической записи, когда программа, за- 
писав слитный речевой отрезок, ожидает и записывает следующий, и пользователю 
нет необходимости каждый раз нажимать кнопку записи. 


2 Расширенный транскриптор 


Вновь появившиеся в связи с использованием дифонов возможности для различе- 
ния звонких взрывных между собой, такие же возможности относительно глухих взрыв- 
ных, твердых и мягких звуков, а также возникновение новых фонетических ситуаций 
на стыке слов при распознавании слитной речи, потребовало существенного расширения 
множества правил, заложенных в нашем автоматическом транскрипторе. 

В качестве транскрипционных знаков для гласных звуков использованы в ос- 
новном соответствующие русские буквы. Исключение составляют символы у’, 4 для 
ударных Е, Я соответственно. Об особенностях этой ситуации сказано ниже. Твердые 
русские согласные транскрибируются также русскими буквами, а соответствующие 
мягкие согласные — аналогичными латинскими буквами. Исключения: значком @ 
обозначается мягкое /1, значком $— мягкое Ж, значком «& — южнорусское (украинское) Г, 
значком + обозначается слитный звук д’ ж' (звонкая параллель Ч), значком % — 


слитный звук дз (звонкая параллель Ц). 
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Несколько предварительных слов о принципах, которых мы придерживаемся. 
Прежде всего, специалистам по распознаванию образов известно, что, как правило, 
увеличение числа классов распознавания ведет к снижению надежности распознавателя. 
Поэтому мы сознательно отказываемся от попыток тонкого распознавания аллофонов 
гласных фонем и используем для них единые транскрипционные символы А, И, О, У, Э, 
за одним исключением. В русском письме в том случае, когда за мягким согласным сле- 
дует гласный, мягкость отражается путем выбора буквы для гласного: например, А 
после твердого Д в слове «да» и Я после мягкого Д в слове «дядя». Фонетически эти 
случаи отличаются очень сильно. Поэтому мы сохраняем в качестве транскрип- 
ционных знаков буквы ЕЁ, Ё, Ю, Я. 

Транскриптор реализован как программа, заменяющая одни символы другими 
в соответствии с правилами, содержащимися в управляющем файле. 

Вот его содержание на сегодняшний день: 

1) =- 


2) -е=е, -6=6, -ю=ю, -я=я, —\ле=Ае, -Л6=А6, -Лю=Аю, —Ая=Ая 
3) -= 
4) и: 


5) ого#=ова, его#=ева, 


6) \асч=\ащ, \исч=\ищ, \осчи=\ощи, в\есч=в\ещ, досч\и=дош\и, исч\ез=ищ\ез, 
исчез=ищез, насч=нащ, обсч=общ, пересч\и=переш\и, пересчи=перещи, 
песч=пещ, пр\осч=пр\ощ, расч\6с=расч\6с=ращ\ёс, сч\ас=ш\ас, счас=щас, 
сч\ат=ш\ат, счето=щето, сч\ёт=щ\ёт, сч\ит=сч\ит=ш\ит, тсчитетщит, 
счит=счит=щит, тысч=тыщ, 


7) легк=лехк, лёгк=лёхк, м\ягк=мяхк, 


8) здн=зн, ДЦЕЦ, ТЦЕЦЦ, ТЧЕЧЧ, Жч=щ, зж=жж, сж=жж, еш=шш, стс=сс, стьс=сц, 
ндс=нс, нтс=нс, стн=ен, стц=сц, здц=сц, 


9) \о=1, о=а, 1=\о, \е=\, \я=4, 


10) ъее, ъ6=6, ъю=ю, ъя=я, ьа=я, ье=е, ь6=6, ьэ=е, вью=ю, ья=я, ъ\=]м, 
ъ\6=\ё, ъ\ю=Аю, ъа=а, ь\у=\, ь\6=Л6, ь\о=Аё, ьл\ю=Аю, ь9=а, йа=Йя, йу=Ййю, \а=Йч, 
11) ае=а]е, аю=а]ю, ая=а]я, ее=е]е, ею=е]ю, ея—е)я, ёе= ве, бю= блю, вя= бя, 

ие= ие, ию=и]ю, ия=и]я, ое=о]е, ою= о ю, оя= 0] я, уе=у]е, ую=у]ю, уя=уУ]я, 
ые=ые, ыю=ы]ю, ыя=ыдя, эе=э]е, эю=э]ю, эя=э]я, юе=ю]е, юю=ю]ю, юя=ю]я, 
яе-я}е, яю=я]ю, яя=я]я, ме=жще, Ую=\ю, \я=\я, ае=фе, аю=аю, ая=дя, 
а\=а]\, а\6=а]\6, а\ю-а\ю, аЧ-—а)9, е\=е]\, е\б=е]\ё, е\ю= —е\ю, еа= е)а, бм=ё] м, 
&\6=6л6, в\ю= = \ю, ва= 69, и\=и]\м, и\6=и]\6, и\ю-и]\ю, иЧ-—и)9, о\=а]м, о\6=а]\6, 
о\ю=а]\ю, од= а) 4, ум= Ум, у\6=УЛё, у\ю=уЛю, уа= У}9, ым\= ы]м, ы\6=ы\6, 
ы\ю=ы]\ю, ыЧ-ы)9, эм = э)\, э\6=э\ё, э\ю=ы]ю, эа= э}4, юм= юм, ю\ё=ю\ё, 
ю\ю=ю]\ю, юа= ю]4, ям ям, я\6=я]\ё, я\ю=я]\ю, я-—Я] 9, У\\=Ум, У\6ЕМА, 
\\ю=У\/ю, м9=У\]а, ам=ар\, а\6=а\6, а\ю=а\ю, 99=99, 

12) Нее, #6=ё, яю=ю, Яя=я, Н\=м, #66, Я\ю=\ю, #А=4, 

-е=-е, -6=-6, -ю=-рю, зя=-я, эм=-м, -А6=-А6, —ю=-Аю, —Ч=-]4, стьд=24, 
13) бь=6, 6]=6], бе=Бе, 66=656, би=Би, бю=бю, бя=бя, ба=ба, бу=Ь\и, б\6=6\6, 
б\и=Б\и, б\ю=Б\ю, 65=6Ь, вь=у, в]=У], ве=уе, ви=уи, вю=ую, вя=уя, ва=УЧ4, 
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ву=у\, вё=уб, в\6=у\6, в\и=у\и, в\ю=У\ю, ву=уу, гь=е, г]=е], ге=ое, ги=еи, 
гю=ею, гя=ея, гд=е4, г\=е\, гё=обё, г\ё=о\6, гли=е\и, гю=е\ю, го=ее, дь=4, 
д)=4], де=де, ди=ди, дю=дю, дя=ая, да=да, ду=а\м, дё=ав, д\ё=а\6, д\и=а\и, 
д\ю=а\ю, да=АЯ, зь=7, 3]=7], зе=те, зи=ти, зю=7ю, зя=7я, з4=74, з\=7\, зё=76, 
з\6=7\6, з\и=7\и, з\ю=7\ю, 37=77, кЬ=К, к]=К], ке=Ке, кб=Кё, ки=Ки, кю=Кю, кя=Кя, 
ка=ка, к\у=К\, к\6=К\6, к\и=К\и, к\ю=К\ю, кк=КК, ль. л)=|, лее, ли=и, 
лю=шю, ля=я, ла=а, лм=№, л\6=И6, лё=6, л\и=\и, лАю=Аю, ЛП, мь=ш, м]=0], 
ме=те, ми=ти, мю=шю, мя=штя, ма=та, му=шу\у, мё=т\ё, м\6=п\6, м\и=ил\и, 
м\ю=п\ю, мш=т, нь=и, н]=0), не=ое, ни=пи, ню=пю, ня=пя, на=Па, н\=иу,, 
нё=пё, н\6=п\ё, н\и=п\и, н\ю=п\ю, нд=п4, пь=@, п]=@], пе=@е, пв=@6, пи=@и, 
пю=@ю, пя=@я, па=@а, пи=@м, п\6=@л\ё, пли=@а»\и, п\ю=@\ю, па=@@), рь=г, 
р/=г, ре=ге, рё=гё, ри=ги, рю=гю, ря=гя, ра=га, ру=г\, рё=тё, р\6=1\6, р\и=ци, 
р\ю=/\ю, рг=тг, сь=$, с]=$], се=зе, си=зи, сю=зю, ся=зя, с4=54, с\=$\, сб=6, 
с\6=5\6, с\и=з\и, с\ю=$\ю, се=5 фь=Ё ф]=Ё, фе=Е, фи=мМ, фю=ю, фя=ЁЯ, фа=Ю, 
ф\=ёх, фё=Ю, ф\6ЕА6, ф\и=Аи, ф\ю=Аю, ФЕ, х]=В], хе=Бе, хи=Ви, хю=Бю, хя=Вя, 
ха=ва, х\=Б\у, хё=В6, х\6=В\6, х\и=В\и, х\ю=В\ю, хВ=ИЬ, ть=Ь т]=, те—е, тё=6, 
ти=и, тю=бю, тя=&я, та=а, т\у=Вм, тё=, т\6=Аё, т\и=Ки, т\ю=Аю, тЫ, зд74, ЗЕ, 


14) лзи=л2п, рзи=р2п, зп=7п, 2=з, ннщ=йщ, ни=пи, нь нч=пч, нщ=ощ, сс1=5$1, 
с1=$5], ссп=$зп, си=зп, лее=л3ф рее=р3Зь сё=$Ь З=с, с$=5$, 


15) ь= 
16) б#=п, в#=ф, гй=к, дЯ-т, ж—=ш, з#=с, Б#=@, уй=Ё А#Н=Ь 7#=5, 


17) бк=пк, бп=пп, бс=пс, бт=пт, 6ф=пф, бх=пх, бц=пц, бш=пш, вк=фк, вп=фи, 
вс=фс, вт=фт, взф=фф, вх=фх, вц=фц, вш=фш, гк=кк, гп=ки, гс=кс, гт=кт, 
гф=кф, гх=кх, гц=кц, гш=кш, дк=тк, дп=тп, де=тс, дт=тт, дф=тф, дх=тх, дц=тц, 
дш=тш, жк=шк, жи=шпи, жс=шс, жт=шт, жф=шф, жх=шх, жц=шц, жшЕшиш, 
зк=ск, зп=сп, зс=сс, зт=ет, зф=еф, зх=сх, зц=сц, зш=шш, бК=пк, 6@=@@, 
65=п$, бЕ-=пь бЕ-пЁ, бЬ=пЬ, бч=пч, бщ=пщ, вК=фКк, в@=ф@, вз=фз, в=фь вЕЕЁЕ, 
вр=фЬ, вч=фч, вщ=фщ, гк=КК, г@=к@), гз=к$, гЕ-кь ГЕ-кЁ, г=кЬ, гч=кч, гщ=кщ, 
дк=тк, зтК=стк, д@=т@, дз=тз, де, дЁ-ТЁ, дЬ=тЬ, Уздч=Улц, здч=щч, дч=тч, 
дщетщ, жк=шКк, ж@=ш@, жз=шз$, жеш жЕ=шШЬ жЬ=шЬ, жч=шч, жще=шщ, 
зк=ск, з@=с@, зз=5$, зё=сь зЕ=сЁ, зБ=сВ, зч=сч, зщ=щщ, Бк=@к, Би=@п, 6<=@с, 
6т=@т, Бф=@ф, Бх=@х, Бц=@ц, Бш=@ш, ук=к, уп=Ёт, ус=Ю, ут=Ё, уф=Ю, 
ух=Ё, уц=Ё, уш=йи, Ак=к, дп=бт, 4с=ю, ат=т, аф=ф, ах=х, ац=вт, даш=аи, 
7К=$К, ХП=ЗП, 76=5$, УТЕЗТ, 7ф=$ф, 7х=зх, УЦЕЗЦ, ИШ=ЗШ, БК=@К, Ба=@@, 
Ь5=@з$, М=@ь ЫЕ@Е, Ы=@Ь, Бч=@ч, Бщ=@щ, УК=К, уя=Ка, уз=Ё, УЕ, 
УЕ, УБ=®, уч, ущ=йц, аК=%, а@=Ка, 43=6, @=И, АР=Н, ав=ф, ач=ч, 
щ=иц, 7К=зЗК, 7@=5@, 75=55, 74=5, УВ=ЗВ, 7ЧЕЗЧ, УЩЕЩШ, 


18) кб=гб, кг=гг, кд=гд, кж=гж, кз=гз, пб=бб, пг=бг, пд=бд, пж=бж, пз=6з, 
сб=зб, сг=зг, сд=зд, сж=жж, сз=зз, тб=дб, тг=дг, тд=дд, тж=дж, тз=дз, то=дЬ, 
те=де, т4=44, т2=дт, фб=вб, фг=вг, фд=вд, фж=вж, фз=вз, хб=&6, хг=&г, 
хд=&д, хж=&ж, хз=&з, цб=%б, цг=%г, цд=%д, цж=%ж, цз=%з, чб=+б, чг=+г, 
чд=+д, чж=+ж, чз=+з, шб=жб, шг=жг, шд=жд, шж=жж, шз=жз, щб=$б, шг=Фг, 
шд=$д, щж=фж, шз=$з, 

кЬ=гЬ, ке=ое, ка=га, к7=гт, по=БЬ, п2=бе, пд=64, п2=67, сЬ=зЬ, се=зе, са=з4, 
с7=77, фЬ=вЬ, фэ=ве, фа=ва, фт=в7, хЬ=&6, хо=&е, х4=&4, х7=&7,цр=%Ь, 
ц2=%5, ца=%4, ц=%7, шб=жб, ше=же, ш4=ж4, ши=жа, 

(@6=66, @тг=фг, @д=Бд, @ж=Ьж, @3з=Бз, $6=76, $Г=7г, $Д=7Д, ЗЖ=ЖЖ, $3=73, 
{6=46, н=аг, д=ад, ок=аж, 3=43, 
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ЮБ=УБ, ЁРе=уе, =У4, Еж=уж, Е=у7, @Б=БЬ, @5=Бо, @49=64, @7=Б7, $6=7Ъ, 
52=7е, $4=74, $7=77, Б=аБ, №=4е, 4=а4, 17=47, Ю=уУЬ, №ю=уе, =уУ4, Ё7=У7, 
чЬ=+6, че=+е, ч4=+4, ч2=+7, шф=$Ь, ще=$е, ща=$4, ш2=$7, 


19) жежэ, жи=жы, жю=жу, жя=жа, жу=ж\э, жё=ж\о, ж\6=ж\о, ж\и=ж\ы, ж\ю=ж\у, 
жа=ж\а, ше=шэ, ши=шы, шю=шу, шя=ша, шу=и\э, ш\ё=ш\о, п\и=ш\ы, ш\ю=и\у, 
ша=пАа, це=цэ, ци=цы, цю=цу, ця=ца, ци=ц\э, ц\6=ц\о, цци=ц\ы, ц\ю=ц\у, ца=пка, 
ча=чя, чу=чю, чэ=че, ч\а=ча, ч\о=чё, ч\у=чю, ч\э=ч\уу, ща=щя, щу=щю, щэ=ще, 
ш\а-ща, ш\о=щё, ш\у=щю, ш\э=щу, 

20) лля=л, ммЯ=м, нн#=н, 


21) \= 

Поясним приведенный перечень правил. Каждое из них записано в виде двух 
или более частей, соединенных знаком =. Если упомянутых частей две, слева стоят 
исходные символы буквенной записи слова, справа — символы которыми они заменя- 
ются в транскрипции. Значок \ означает ударение. Машина, транскрибируя слово, после- 
довательно ищет вхождение левой части очередного правила, и если таковое обнару- 
живается, заменяет его правой частью. Если упомянутых частей больше двух, создается 
соответствующее число вариантов транскрипции: вариант, соответствующий второй 
части, вариант, соответствующий третьей части равенства, и т.д. 

Для удобства читателя в данном тексте правила разбиты на группы, которые за- 
нумерованы. Рекомендуется внести в управляющий файл эти группы в порядке номеров, 
не меняя порядка правил в группах, поскольку порядок замен, очевидно, важен. 

Правило первой группы введено исключительно для наглядности. Оно временно 
заменяет пробел знаком --. 

Вторая группа описывает произношение Е, Ё, Ю, Я после пробела (начало слова). 

Правило третьей группы убирает значок -, а вместе с ним из транскрипции 
слитной речи уходят пробелы между словами. 

Четвертая группа удаляет из транскрипции знаки препинания. 

Пятая группа описывает произношение окончаний в родительном падеже прила- 
гательных типа «нового», «синего». 

Шестая группа служит для транскрибирования сочетания «СЧ» в различных 
ситуациях. Сочетание СЧ, которое в слове «считать» от слова «счёт» звучит, как Щ, 
даёт СЧ в омониме, обозначающем чтение с какого-то носителя; это порождает два 
варианта транскрипции. 

Седьмая группа предназначена для описания произношения в словах типа «легко». 

Восьмая — отражает произносительную норму в словах типа «мужчина» и не- 
которые фонетические правила, связанные с непроизносимыми согласными. 

Девятая группа служит для транскрибирования гласных О, Е, Я, когда они 
стоят в ударной позиции. Поскольку транскриптор работает по принципу замены, 
приходится предварительно переименовывать ударное (0), а затем возвращать ему 
прежнее обозначение. Введение специальных обозначений для ударных Ё, Я связано 
с тем, что только они имеют совершенно определенное произношение. В безударном 
варианте они произносятся различными носителями языка по-разному. Для так назы- 
ваемой «младшей нормы» (более молодое поколение москвичей) они ближе к И, у сиби- 
ряков и в сценической речи — ближе к Е, Я. 

Десятая группа правил отражает фонетическую роль мягкого и твердого знаков 
перед Е, Ё, Ю, Я. Их наличие приводит при произношении к появлению согласного /. 

_ Одиннадцатая группа отражает произношение сочетаний гласных с гласными 
В, В, Ю, Я. 
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Двенадцатая группа описывает произношение ЕЁ, Ё, Ю, Я, если с них начинается 
произносимый слитный речевой отрезок (# — знак начала и конца; в транскрибируе- 
мом тексте его проставлять не надо). 

Тринадцатая и четырнадцатая группы связаны с обозначением в русском письме 
мягкости согласных и нейтрализацией твердых и мягких фонем. 

Пятнадцатая — удаление мягкого знака, который уже сыграл свою роль. 

Шестнадцатая группа — оглушение звонкой согласной в конце произносимого 
слитного речевого отрезка. 

Семнадцатая группа — оглушение звонкой согласной перед глухой взрывной, 
шипящей и аффрикатами Ц, Ч. 

Восемнадцатая — озвончение глухих согласных перед звонкими согласными. 

Девятнадцатая группа отражает влияние твердого и мягкого согласного на 
последующий гласный. 

Двадцатая — особенность произнесения удвоенных согласных в конце слова. 

Отметим, что мы опробовали ряд достаточно успешных методов автоматичес- 
кого определения ударения в слове. Решение до конца этой трудной проблемы, очевидно, 
сильно сократило бы число слов — кандидатов на распознавание. Наш транскриптор 
пока убирает знак ударения (группа 21), но, в расчете на его автоматическое определение 
в звучащем слове, делает это лишь в самом конце. 

Отметим, что мы включили в приведенный перечень лишь те правила, которые об- 
условлены русской фонетикой, и оставили за его пределами некоторые правила, порожда- 
емые особенностями нашей сегментации. Например, сонорные согласные на конце слова 
после глухих взрывных сегментируются как гласные звуки (идентификатор И’). Эти до- 
полнительные правила включаются в отдельный транскриптор, используемый нами для 
создания файлов слов с транскрипцией широкой фонетической классификации (И, С, 
Е, Р), которые в данной работе не используются. Отметим также, что ряд вышеприве- 
денных сочетаний не встречается в отдельных словах, но встречается в слитной речи. 

Наконец, прежде, чем транскрибировать по указанным правилам, компьютер 
обращается к файлу исключений, в котором описываются процедуры транскрибиро- 
вания целых слов, например, 

чт\о=што, ог\о=ого. 


3 Алгоритм с ОТ\У-эталонами, создаваемыми 
из дифонов. Использование таблицы расстояний. 
Дерево эталонов. Размеры ОТУ/-матрицы 


Мы применяем для распознавания ставший уже классическим алгоритм Т.К. Ви- 
нцюка, известный под названием алгоритма ОТУ (его описание в [1], также [2]). При 
этом мы используем свои вектора признаков, связанных с относительными частотами 
длин полных колебаний на речевых отрезках в 368 отсчетов ([4]). Эталоны слов рас- 
познаваемого словаря формируются из эталонов дифонов, полная база которых 
в объеме приблизительно полуторных тысяч создается для каждого диктора заранее 
(2 — 3 часа работы, [4]). Отметим, что создание такой базы в дальнейшем избавляет 
пользователя от необходимости создавать какие-либо эталоны голосом. 

Под дифоном, соответствующим межфонемному переходу внутри слова, будем 
понимать участок стандартной длины: 3 окна в 368 отсчетов слева от метки между зву- 
ками и 3 таких же окна справа от той же метки. Эталон дифона — набор 6-и соответствую- 
щих векторов. Кроме того, мы используем участок в 3 окна в начале слова и участок 
в Зокна — в конце слова, условно называя их соответственно начальным и конечным 
полудифоном слова (переход от молчания к речи и наоборот). Все вектора, входящие 
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в эталоны дифонов, играют роль кодовых векторов и образуют кодовую книгу В. Все 
эталоны дифонов нумеруются, нумеруются также все кодовые вектора. 

Каждое слово словаря автоматически транскрибируется, по транскрипции строится 
цепочка имен дифонов. Каждое из них заменяется эталоном соответствующего дифона. 
Полученная цепочка векторов образует эталон слова ([4]). 

На самом деле мы не создаем и не храним перечень эталонов слов словаря в виде 
статического списка. Словарь эталонов слов реализуется в виде дерева дифонов, исполь- 
зование которого существенно ускоряет процесс распознавания. Дерево создается 
при первоначальной загрузке текстового словаря. Дифоны представлены в дереве своими 
номерами. Эталон каждого слова представляется в виде ветви этого дерева. Если нес- 
колько ветвей имеют общую часть, то вычисления, заполняющие соответствующую 
часть ОТУ/-матрицы, выполняются только один раз. 

Уровни дерева соответствуют позициям дифонов в слове. Каждый узел в рамках 
каждого уровня представляет собой номер дифона, находящегося в слове на соответ- 
ствующей позиции. Вершины, соответствующие конечным дифонам слов, помечаются 
как концы соответствующих слов (в узле записывается порядковый номер соответ- 
ствующего слова в словаре). Если узел не конечный, то записывается значение -1. 
Максимальная глубина дерева соответствует максимальной длине (выраженной в ко- 
личестве дифонов) слова в словаре. 

Процесс распознавания строится следующим образом. Распознаваемое слово 
автоматически сегментируется и затем подвергается так называемой межфонемной 
обработке: удаляются стационарные части составляющих звуков и оставляются лишь 
дифоны в окрестностях межзвуковых меток (межфонемные переходы). Затем создается 
представление слова в виде набора № векторов признаков и строится таблица О 
расстояний этих векторов до всех векторов кодовой книги В. Далее вычисляются 
ОТУ-расстояния рассматриваемого слова до всех эталонов слов путем рекурсивного 
обхода дерева эталонов «в глубину». Вначале просматриваем корень дерева, а затем 
спускаемся по ветви, пока не достигнем вершины, помеченной как конец слова. После 
того, как достигнут конец слова, возвращаемся назад вдоль пройденного пути, пока 
не найдем вершину, у которой есть еще не посещенный сосед, а затем двигаемся в новом 
обнаруженном направлении. Процесс оказывается завершенным, когда мы вернулись в 
корень дерева, а все примыкающие к нему вершины уже оказались посещенными. 

При прохождении ветвей дерева, по номерам дифонов строится цепочка соответст- 
вующих им номеров векторов, образующих эталон слова. Двигаясь в глубину, добав- 
ляем в цепочку номера, соответствующие пройденным узлам, а при движении назад 
они удаляются из нее. Достигнув узла, являющегося концом очередного слова, вычис- 
ляем ОТ\У’-расстояние от построенной цепочки векторов (эталона данного слова) до 
цепочки векторов распознаваемого сигнала. При этом расстояния между векторами 
берутся из таблицы Р. В процессе вычисления расстояний матрица ОТУ/ не переписы- 
вается полностью, а обновляются только столбцы, соответствующие новым кодовым 
векторам, номера которых добавлены в цепочку после возврата назад по окончании 
предыдущего этапа. 

Таким образом, достигается очень значительный выигрыш как в скорости рас- 
познавания, так и в объеме необходимой памяти. 

В заключение отметим, что мы работаем с квадратными ОТУ’-матрицами перемен- 
ного размера: если эталон слова содержит @ векторов, а распознаваемое слово содер- 


2 
жит р векторов, то мы строим ОТУ/-матрицу размера ^/ а” +Ь (Г.В. Дорохина). 
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4 Основные принципы предлагаемого подхода к 


распознаванию слитной речи 

Пусть у нас есть несколько слитно произнесенных фраз. Наша программа 
автоматически затранскрибирует их и создаст для каждой из них эталон из дифонов, 
игнорируя пробелы между словами. После этого их можно распознавать между со- 
бой теми же методами, что и отдельно произносимые слова. Но если рассматривать 
множество произвольных фраз, то их бесконечно много и, очевидно, следует доби- 
ваться их распознавания путем распознавания слов, из которых они состоят. Тогда 
основная сложность — выделение в речевом сигнале отрезков, отвечающих отдельным 
словам. Иначе говоря, мы должны научиться определять, где заканчивается одно слово 
и начинается другое. Предлагаемый ниже метод основан на использовании вышеупомя- 
нутой сегментации. Весь рассматриваемый речевой отрезок автоматически разбивается 
на сегменты, отвечающие отдельным звукам, и границы между словами следует искать 
среди конечного множества полученных границ между звуками. 

Мы начинали с распознавания пар слитно произносимых слов. Распознавая от- 
резок от начала до первой метки, а затем от первой метки до конца, мы получали 
пару слов нашего словаря. Затем мы проводили распознавание от начала до второй 
метки и от второй метки до конца и так далее. Заключительным шагом было распоз- 
навание всего речевого отрезка от начала до конца как одного слова. В результате 
мы получали последовательность гипотетических пар слов (на последнем месте — 
[0710 = (®) слово). Для каждой из этих пар автоматически строился эталон и результатом 
распознавания объявлялась пара, до которой ОТУ-расстояние минимально. Этот 
алгоритм показал высокую надежность. Но он включал целый набор актов распоз- 
навания отдельных гипотетических слов и в результате оказывался довольно долго 
работающим. Попытка применить аналогичный алгоритм к распознаванию большего 
числа слитно произнесенных слов ведет к экспоненциальному росту числа распозна- 
ваний гипотетических слов, и от нее приходится отказаться. 

Тогда мы стали, двигаясь от начала до очередной метки, выводить только после- 
довательность гипотез для первого слова, но с указанием ОТУ/-расстояния 71 (9) каждой ИЗ 
НИХ. Оказалось, что гипотеза, соответствующая истинному первому слову (и соответ- 
ствующему истинному отрезку от начала) имеет указанное расстояние, близкое к мини- 
мальному. Для слитно произносимых числительных (без фонетических вложений, О КОТО- 
рых ниже) результат оказывался точным. Итак, мы приходим к следующему «принципу 
минимума»: ПО КРАЙНЕЙ МЕРЕ, ДЛЯ СЛОВАРЕЙ, УДОВЛЕТВОРЯЮЩИХ 
НЕКОТОРЫМ ОГРАНИЧЕНИЯМ, ПЕРВОЕ СЛОВО ОПРЕДЕЛЯЕТСЯ С 
ИСПОЛЬЗОВАНИЕМ МЕТОК ИЗ УСЛОВИЯ МИНИМУМА ОТУ- 
РАССТОЯНИЯ. 

Понятно, что для распознавания второго слова фразы следует применить опи- 
санный метод к части сигнала от конца первого слова до конца речевого отрезка и 
так далее. 

Смысл этого принципа становится понятен, если вспомнить, что алгоритм ОТУ\У 
направлен на минимизацию расстояния сказанного слова до эталона того же слова. 
Остальные слова в полученном списке на самом деле не звучали и то, что их расстояния 
до соответствующих эталонов оказались больше, представляется естественным. 

Об ограничениях, упомянутых выше. Эксперименты показывают, что к числу таких 
ограничений нужно отнести следующее. Словарь не должен содержать пар слов, 
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одно из которых совпадает с началом другого. Точнее, не должно быть таких пар слов, 
что транскрипция одного из них получается из транскрипции другого приписыванием 
в конце дополнительных транскрипционных символов. В противном случае, при 
произнесении более длинного слова такой пары, ОТУ/-расстояние до слова с более 
короткой транскрипцией может быть меньше. 
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ВЕ5ОМЕ 


У. Ли. Эпёероу, А.У. МсепКо 
Гог йе Рто Мет о Сопипиои5 5реесй Ктесовпт поп 

Тре ПгзЕ зесйоп ©оез оп Ше заб]есё оЁ агафе [1]. Ш 4езсиез аеогибт 
еетиитаноп оЁ зреесп Боипдатез$ тоге гоби$( теануе[у по15е писгорВопе ап зоип4 
сага. ТВе зесоп4 зесйоп Аезсиез ашютайс шапзсириоп зужет, \у№сВ соп(аш$ тапу 
пе\у г]ез оЁ ехр|озуе сопзопап$ папзсирйоп, зой сопзопап$ папзсирйоп апа рвопейс 
зЦианоп$ ш Боипданез$ оЁ \/ог4$. 

У!е арру Гог гесостоп зоте то Фсайоп ор ОТ\У/-аеог фт, изше оми зубет оЁ 
$1215 ([4]). \е стеае Базе оЁ Ф@рвопез, ушсВ сотат рБопе гап$оп$, ап Би!А рацегп$ оЁ 
\ог4$ разИипе юсе@ег равегиз оЁ Фезе Чрпопез. УУе Кеер райегп$ оЁ \ога$ ш Фе Кюпт оЁ 
Чрвопез пиипБегз ее. Озштх 15 шее уе оМат еззепна! зауше оЁ зрее4 ап4 тпетогу. 

Тре тат ритсра[5 оГ 5зиззезе4 аггапветет! сопипиоиб 5реесй тесовтийоп 

1) Боипдапе$ оЁ \ог4$ оц? о 1о0к ог ш Вике $е( оЁ тагК$ Беб\ееп 5$о0ипа$ (ог 
зестешаНноп БиПа$ 1$ 5её ащотайсаПУу). 

2) Геё из гесоетте (аз а \ога оЁ ог уосаб\]агу) Ше раш оЁР $1епа! Нот Фе 
Безштише © Ше ВгзЕ тагК, Феп гот фе Бесшите ю Ше зесоп4 тагК апа $0 оп. ТВеп ай 
[еа5( Гог уосабч]агу, \РасВ зайз$Ру гезблсйоп е1уеп Бе]о\, фе ИгзЕ \ога 1$ д&егитед 
ГоПо\млие шшипа| ОТУ/-415ап( соп1оп. (пита! ОТУ/-91$апЕ рипс1р/е). 

КезилеНоп 15 Ше пехе уосабШагу ту$ё по сомаш $0 рашз$ оЁ \/огаз, фай 
бапзсириоп опе оЁ Фет 1$ Фе Безшите оЁ шапзсирйоп фе офег. ОФфегулзе, уВеп \е 
зреаК тоге 1оп® \’ога, Фе Ч1${апе ю тоге $ВоЕ \огА тау Бе 1е$$. 
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